pour le projet de Data Vizualisation, nous avons choisis comme jeu de données les buts marquées par Cristiano Ronaldo pendant sa carrière.
pour obtenir ces statistiques, on a extrait ces données du ce site le script python qui fait l’extraction se trouve dans le notebook scrapGoals.ipynb et le dataset resultant est goals.csv
ce dataset contient cinq colonnes, ces colonnes sont:
la competition
l’équipe de Cristiano
l’équipe adversaire
à domicile ou à l’éxterieur
le nombre des buts marquées dans le match.
voici l’apercu du jeu de données :
library(plotly)
data<-data%>%
group_by(against)%>%
summarise( ng = sum(number.of.goals), a = sum(home.away=="A"), h = sum(home.away=="H") )
data<-data[order(data$ng, decreasing = FALSE), c(1,2,3,4)]
p<-data%>%
mutate(against = factor(against, against))%>%
ggplot(aes(x = against, y = ng, text=paste("home:",h,"\naway:",a,"\n#goals:",ng), sort = FALSE))+
xlab("Adversaire")+
ylab("nombre des buts")+
geom_segment( xend=1:nrow(data), yend =1:nrow(data)*0)+
geom_point()+
coord_flip()
ggplotly(p, tooltip = "text")
library(treemap)
library(d3treeR)
data <- original
p<- data%>%
group_by(compitition, for.)%>%
summarise(goals = sum(number.of.goals))%>%
treemap(index =c("compitition", "for."),
vSize = "goals", type = "index", draw = FALSE);
d3tree3(p, rootname = "Goals per competition & team")